Про отказоустойчивые архитектуры
Дмитрий Масленников, «Т-Банк»
Быть «на телефоне» ("oncall")
Процесс алертирования
- Алерты настраивает себе сама SRE-команда
- Алерты получает SRE-команда
- Алерты подтверждаются
- Есть механизм эскалирования
- Есть механизм «ручных» алертов
Первые шаги SRE-команды
- Определить SLI и SLO
- Обеспечить автоматический мониторинг SLA
- Падение SLA — источник задач для SRE
Антипаттерны
- Самую сложную работу делает самый опытный
- Специализация